台湾「选举」中的统计学:抽样误差决定谁当主候选人
现在的新闻,都到了要懂统计学才能看懂的地步了。
抽样调查是民调最常用的手段。在各种选举中,很多独立机构会用民调来预测大选结果。而在台湾的「选举」中,民调发挥的作用就更大了,一些政党的候选人都是通过民调来决定的。
今年的台湾「选举」中,民众党和国民党终于决定要联合选举,对于谁来当主候选人,谁来作配,由民调得到的支持率来决定。
11.18 日,基于 6 家独立调研机构的结果,双方讨论谁来当主候选人。但讨论了 5 个小时,也没有定论。一个认为 6 家的结果算出来差距是 5:1,一个认为是 3:3,因为要取 ±1.5% 的抽样误差。
没有想到,统计学还能决定政党的候选人!
具体来看,有 6 家调研机构调查了两个人的支持率。两方的差异在于怎么解释这个结果。
民众党候选人柯文哲,认为要取 ±1.5% 的误差,则结果是 3:3 平。
国民党(侯方)则认为按照抽样统计,应取 ±3% 的误差,两者的结果相差则结果应该是 5:1。这个结果也是 3 个统计专家得出的结论。
这里的误差,就是抽样误差。
它反映了因为抽样而不是对整个人群进行调查所可能产生的误差。这个值是根据样本大小、总体大小、置信水平和总体的变异性计算出来的。在简化情形下,不考虑总体大小和变异性的情况,误差范围可以使用以下公式计算:
其中:
E 是误差范围。
z 是对应于所选置信水平下的 z 得分(例如,95%置信水平对应 1.96 的 z 得分)。
p 是样本中的比例(例如,如果有 50%的受访者选择某个选项,p 就是 0.5)。
n 是样本大小。
有了这个计算公式,就比较好计算了。假设有 1000 个样本,置信水平为 95% 的情况下,抽样误差约为±3%。这意味着如果这个民意调查能够重复多次,那么在 95%的情况下,真实比例将会落在样本比例的±3%的范围内。
实际并不知道这 6 个民调各自有多少个样本,但看 3 个统计学家都取 ±3%这个误差范围,想必也就 1000 个左右吧。
在实际应用中,计算误差范围可能会更加复杂,需要考虑总体大小的校正(特别是当样本大小接近总体大小时),以及设计效应等其他因素,如果样本是分层或者聚类抽取的话。对于公开发布的民意调查,调查机构通常会提供误差范围和置信水平,以便于公众理解结果的可靠性。具体的细节,咱们也不清楚了。
而让我没想到的是,国民党主席朱立伦,竟然在台湾大学教授统计学多年,他说,每一份民调都有抽样统计误差,从来没有所谓让 6%,3 位民调专家包括民众党代表,皆认同统计误差结果。他表示,如果硬用正负1.5%的话,“这不是统计学,而是人工设定的抽样误差。”
学好统计学,才能理解现在的新闻啊。